C5-5 事実検証モデルのためのラウンドトリップ翻訳を利用した疑似フェイクデータ生成
背景
フェイクニュースが社会問題に
選挙関係のデマ
新型コロナウイルスのデマ
既存のデータセット
NTCIR-16
PoliInfo-3
FactVerification
パッセージ検索と含意関係認識
パッセージ検索
BM25+
含意関係認識
BERT
ファクトチェックできなかった
なぜ?
FactVerification
1023件
フェイクデータは427件
人手のフェイクを見分けるのに向かない
関連研究
固有表現の書き換えによるフェイク生成
フェイクデータの作り方
否定の挿入・削除
主語・目的語の交換
対義語への変換
提案手法
文を編集操作することでフェイクデータを生成
Round-Trip Manipulation
日本語→英語→操作→再翻訳→フェイクデータ
https://gyazo.com/47bfdb5dac6f6f8b833a825c231bb782
https://gyazo.com/b50a1cb5799d841956d64818024d94f6
https://gyazo.com/f7767796fd1320d9740d9dcd83a1ba1e
https://gyazo.com/fc2f628864ba2b8012fbf14a379d5c37